BAB 2 
MENGESTIMASI RELIABILITAS 


What good is consistency, if you're consistently wrong? (pepatah Inggris) 


A. RELIABILITAS TES ULANG (TEST-RETEST) 

Reliabilitas tes ulang adalah menguji keandalan instrumen pengukuran/hasil pengukuran 
yang didapatkan dari pengukuran secara berulang. Setiap subjek mendapatkan tes yang 
sama sebanyak dua kali. Estimasi reliabilitas ini dilakukan dengan cara mengkorelasikan 
hasil pengukuran pertama dan kedua. 


1. CONTOH DESAIN PENELITIAN 


Ahern (2004) melakukan penelitian untuk mengidentifikasi properti psikometris Parent- 
Child Dysfunctional Interaction Scale. Untuk mendapatkan reliabilitas hasil 
pengukurannya, ia menggunakan teknik tes ulang yaitu dengan memberikan skala tersebut 
kepada subjek dengan menggunakan tes ulang kepada 185 orang dengan interval waktu 6 
bulan. 


2. LATIHAN 


Sebuah tes pemahaman visual diberkan sebanyak dua kali kepada subjek penelitian. 
Peneliti hendak melihat seberapa jauh reliabilitas alat ukur yang dibuatnya. Kutipan data 
yang hendak dianalisis dapat dilihat pada tabel berikut ini. Variabel Va 1, Va 2..dst adalah 
hasil pengukuran pertama. Total a adalah skor total pengukuran pertama. Vb 1, Vb 2..dst 
adalah hasil pengukuran kedua. Total b adalah skor total pengukuran kedua. 

















No | Va_1 | Va_2 | Va_3 | Va_4 | Total_a | Vb1 | Vb_2 | Vb_3 | Vb 4 | Total b 
1 14 4 4 4 16 4 4 4 4 16 
215 5 4 2 16 3 3 5 5 16 
3 14 4 4 4 16 4 5 4 4 17 
415 5 5 5 20 4 5 5 4 18 






































Mari kita menganalisisnya. 

e Buka file kerja : “Tes Retest.Sav” 

e Klik menu Analyze > Correlation > Bivariat 

e Masukkan variabel “total_a” dan “total_b” pada kotak variable(s). Tekan OK! 
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3. OUTPUT DAN INTERPRETASI 


Correlations 


1 9197 


Pearson Correlation 
Sig. (2-tailed) 
N 





Pearson Correlation 
Sig. (2-tailed) 
N 
“". Correlation is significant at the 0.01 level 





Hasil analisis menunjukkan bahwa terdapat hubungan yang signifikan antara dua hasil 
pengukuran pertama dan kedua (r - 0.919: px0.001). Hal ini menunjukkan bahwa hasil 
pengukuran sangat stabil darii waktu ke waktu (reliabel). Analisis reliabilitas hanya 
memperhatikan nilai r saja tanpa melihat signifikansi hubungan. Jadi meskipun signifikansi 
hubungan ini besar (px0.001), tidak dilaporkan dalam sub bab reliabilitas hasil pengukuran. 


4. RUMUS MANUAL 


Rumus mencari reliabilitas tes paralel adalah rumus korelasi product momment dengan 
rumus sebagai berikut. 





Keterangan 
Syy = kovarian antar tes 
S, dan S, = deviasi standar tes 


Dengan mengoperasikan menu DESCRIPTIVE STATISTICS - DESCRIPTIVE - OPTION kita dapat 
menemukan nilai deviasi standar masing-masing tes dan dengan mengoperasikan menu 
CORRELATE - BIVARIATE - OPTION kita dapat menemukan kovarian antar tes. 


Descriptive Statistics 





Total_va 7 20 15.05 -b 
Total_vb 20 15.74 3.970 
Valid N (listwise) OoOo O Oűf 


Correlations 


Total_va Total_vb 


Total va Pearson Correlation .919** 
Sig. (2-tailed) .000 
Sum of Squares and 
Cross-products 
Covariance 13.497 13.404 
N 19 19 
Total vb Pearson Correlation .919** 1 
Sig. (2-tailed) .000 
Sum of Squares and 
Cross-products 
Covariance 404 15.760 
N : 19 
**. Correlation is significant at the 0.01 level (2-tailed). 


242.947 241.263 





241.263 283.684 








Dari pengoperasian melalui SPSS diketahui kovarian antar tes (S,, 13.40) dan deviasi 
standar tiap tes (S, -3.674 dan S,- 3.970) sehingga nilai reliabilitas yang didapatkan 
adalah sebesar r» = Syy /S$,)-13.40/(3.674 * 3.970) = 0.919 
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5. PENULISAN LAPORAN PENELITIAN 


— Melalui analisis korelasi product moment untuk mengestimasi reliabilitas test-retest 
dengan waktu tenggang 2 minggu, didapatkan reliabilitas instrumen pemahaman visual 
adalah tinggi (r =0.919) 

— In pilot work for the current study subscales of this Parent Report Scale (PRS) 
manifested relatively strong test-retest reliability estimates (ranging from .71 to .80 
over a 4-month interval) (Cole et al. (1996) 


B. RELIABILITAS TES PARALEL 

Tes paralel adalah dua buah tes yang disusun dari tujuan ukur yang sama dan blue print 
yang sama sehingga jumlah item atau taraf kesukarannya untuk tes kognif adalah sama. 
Secara statistik, tes paralel diasumsikan dengan nilai varian skor tampak dan varian eror 
yang setara (parallel) atau ditambahkan dengan asumsi rerata skor yang setara (strict 
parallel) antar kedua tes. 


1. CONTOH DESAIN PENELITIAN 


Seorang peneliti hendak melakukan eksperimen mengenai efektivitas penggunaan cerita 
bergambar untuk meningkatkan penalaran moral remaja dengan menggunakan pre-test and 
post-test design. Untuk mengurangi terjadinya efek pembelajaran ketika subjek dikenakan 
post-test maka peneliti menggunakan dua buah tes yang paralel. Satu diberikan ketika pre- 
test dan satu diberikan ketika post-test. Untuk menguji reliabilitasnya peneliti 
menggunakan teknik estimasi reliabilitas tes paralel. 


2. LATIHAN 


Sebuah skala hubungan interpersonal berbentuk likert disusun paralel (Form A dan Form B). 
Masing-masing form terdiri dari 5 aitem. Peneliti hendak melihat koefisien reliabilitas alat 
ukur yang dibuatnya. Kutipan data yang hendak dianalisis dapat dilihat pada tabel berikut 
ini. Variabel a 1, a 2..dst adalah hasil pengukuran pertama. Total a adalah skor total 
Skala form A. b 1, b 2..dst adalah hasil pengukuran kedua. Total b adalah skor total dari 
skala form B. Cara mengestimasi reliabilitas tes paralel adalah sama dengan test-retest 
yaitu dengan cara mengkorelasikan skor total masing-masing form. 




















Nolalla2la3|la4la5I|Totalb1lb2Ib3/b4Ib5| Totb 
1 4 4 2 2 2 14 2 2 3 4 4 4 
2 4 4 2 2 2 14 2 2 2 4 4 4 
3 2 4 2 2 2 12 2 4 4 2 2 2 
4 2 4 2 2 1 11 2 2 2 3 3 3 












































Mari kita menganalisisnya. 

e Buka file kerja : “Tes Paralel.Sav” 

e Klik menu Analyze > Correlation > Bivariate 

e Masukkan variabel “total_a” dan “total_b” dalam kotak variable(s). Tekan OK! 


3. OUTPUT DAN INTERPRETAS 


Correlations 


Hasil analisis melalui korelasi product moment 





Totala Pearson Correlation 1 menunjukkan bahwa terdapat hubungan yang 
Tks œT signifikan antara Form A dan Form B (r = 0.897: 
Total b Pearson Correlation 397 px0.001). Hal ini menunjukkan bahwa kedua tes 
- (@-tailed) adalah setara (eguivalent). Sama seperti pada tes- 





retest analisis reliabilitas hanya memperhatikan 
nilai r saja tanpa melihat signifikansi hubungan. 


““. Correlation is significant at the 0.01 level 
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4. RUMUS MANUAL 


Rumus mencari reliabilitas tes paralel adalah rumus korelasi product momment dengan 
rumus sebagai berikut. 





Keterangan 
Syy = kovarian antar tes 
S, dan S, = deviasi standar tes 


Dengan mengoperasikan menu DESCRIPTIVE STATISTICS - DESCRIPTIVE - OPTION kita dapat 
menemukan nilai deviasi standar masing-masing tes dan dengan mengoperasikan menu 
CORRELATE - BIVARIATE - OPTION kita dapat menemukan kovarian antar tes. 


Descriptive Statistics 


Std. Deviation 
19 6 





Total_a 25 15.58 4.325 
Total_b 7 25 16.00 4.269 
Valid N (listwise) OoOO O 


Correlations 


Pearson Correlation 1 .897** 
Sig. (2-tailed) .000 
Sum of Squares and 
Cross-products 
Covariance ; 16.556 
N 19 
Total b Pearson Correlation 897" 1 
Sig. (2-tailed) 
Sum of Sguares and 
Cross-products 
Covariance 6.556 18.222 
N 9 19 
“. Correlation is significant at the 0.01 level 





336.632 298.000 





328.000 





Dari pengoperasian melalui SPSS diketahui kovarian antar tes (S,, -16.556) dan deviasi 
standar tiap tes (S -4.325 dan S,- 4.269) sehingga nilai reliabilitas yang didapatkan 
adalah sebesar r - S,, (Sx Sy)=16.556/(4.325 * 4.269) = 0.897 


5. PENULISAN LAPORAN PENELITIAN 


Melalui analisis korelasi product moment didapatkan bahwa reliabilitas skala hubungan 
interpersonal yang diketahui melalui koefisien ekuivalensi instrumen pemahaman visual 
adalah tinggi (r -0.897) 


D. RELIABILITAS KONSISTENSI INTERNAL 

Reliabilitas konsistensi internal adalah reliabilitas yang didapatkan dari pengujian 
konsistensi antar aitem (antar bagian) menunjukkan konsistensi respon subjek dalam satu 
alat ukur pada satu kali pengukuran. Koefisien reliabilitas ini dapat langsung diketahui 
meskipun tes diberikan satu kali saja. Cara yang biasa dipakai adalah melihat hubungan 
antar belahan pada tes. Dengan membelah tes menjadi beberapa bagian kemudian 
membandingkan hubungan antar bagian. SPSS menyediakan dua jenis model yaitu model 1 
yang tidak melibatkan matriks kovarian dalam analisisnya dan model 2 yang melibatkan 
matriks kovarian dalam analisisnya. Estimasi reliabilitas dengan teknik konsistensi internal 
dilakukan dengan melakukan pembelahan item menjadi beberapa belahan. SPSS 
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menyediakan dua jenis pembelahan, pertama pembelahan 2 bagian (pembelahan panjang 
setara maupun pembelahan panjang yang tidak setara) misalnya Formula Spearman-Brown 
serta pembelahan sejumlah itemnya misalnya Formula Alpha. 


L.A. CONTOH DESAIN PENELITIAN 


Wijatmiko (2001) hendak menguji alat ukur yang kemandirian yang disusunnya sendiri 
dengan menggunakan teknik konsistensi internal dengan menggunakan Formula Alpha. 
Peneliti memberikan alat ukur kepada subjek yang berjumlah 100 orang dan 
menganalisisnya kemudian mendapatkan bahwa nilai reliabilitas yang didapatkannya 
memuaskan (r,x-0.911) 


2.A LATIHAN 1 (KOEHSIEN ALPHA) 


Sebuah skala harga diri berbentuk Likert 4-pilihan (0 sampai 3) yang berjumlah 10 aitem 
hendak dianalisis reliabilitasnya. Peneliti hendak menguji reliabilitas alat ukur ini dengan 
menggunakan teknik Alpha Cronbach. 





olal a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 
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Mari kita menganalisisnya. 





=] « Buka file kerja : “Split Half.Sav” 
| e Klik menu ANALYZE > SCALE > RELIABILITY 
ANALYSIS 
e Masukkan semua aitem ke dalam kotak ITEMS 
e Pilih Model pilih model ALPHA di kotak bagian 


IM Reliability Analysis 


bawah. 
Mo PSI e Tekan menu STATISTICS lalu pilih menu 
JT List item labels e Tekan OK! 











3.A. OUTPUT DAN INTERPRETASI 


Reliability Statistics 


Cronbach's 
Alpha N of Items 
| Lo 8n 12 


Hasil analisis dengan menggunakan teknik alpha cronbach didapatkan koefisien reliabilitas 
alat ukur cukup tinggi yaitu rxẹ = 0.813. Hal ini menunjukkan bahwa alat ukur tersebut 
dapat terpercaya. 





= Alpha « 0.7 : kurang meyakinkan (inadequate) 
= Alpha > 0.7 : baik (good) 
= Alpha > 0.8 : istimewa (excellent) (Nunally, 1978) 


4.A. RUMUS MENG HITUNG 


Rumus menghitung formula alpha adalah sebagai berikut. 
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Keterangan 
k = jumlah item/belahan 


£S% = jumlah varian belahan dalam tes 


Sx- “Varian skor total (Cronbach, 1951) 


Untuk mencari nilai reliabilitas alpha terlebih dahulu varian kita mencari total varian antar 
tes (XS2). Melalui menu DESCRIPTIVE STATISTICS - DESCRIPTIVE - OPTION kita 
mendapatkan varian masing-masing item. Varian-varian tersebut kemudian kita jumlahkan. 


Descriptive Statistics 
Oo U N | Vaine | 
item_1 : 
item 2 
item 3 
item 4 
item 5 ; Total varian semua item 8.200 
item_6 3 2 
iea l (XS =8.200) 
item_8 
item_9 
item_10 
item_11 
item_12 
Valid N (listwise) 








Descriptive Statistics 


Varian skor total 32.178 
(S =32.178) 


X —tot 


tota 10 T [32178] 
valia NdstwiSe) o| A 


Dengan mengetahui kedua nilai di atas maka nilai reliabilitas alpha dapat dihitung. 





ES- l 
&a=( k ya Yi j i 2120 ) = 0.813 
ag | Sza l1 32.178 





5.A PENULISAN LAPORAN PENELITIAN 


— Dengan menggunakan teknik alpha cronbach didapatkan bahwa koefisien reliabilitasnya 
adalah rx -0.897 

— For the present sample of married Chinese Americans, coefficient alphas for scores on 
the Support and Conflict scales were moderately high: .87 and .86 for spouse, .88 and 
.85 for family, and .89 and .78 for friends, respectively (Hwang et al., 2000) 


LB. LATIHAN 2 (KOEASIEN SPEARMAN- BROWN) 


Sebuah skala harga diri berbentuk Likert 4-pilihan (0 sampai 3) yang berjumlah 10 aitem 
hendak dianalisis reliabilitasnya. Peneliti hendak menguji reliabilitas alat ukur ini dengan 
menggunakan teknik belah dua (split half) dari Spearman-Brown. 
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2.B. LATIHAN 2 (KOEASIEN SPEARMAN- BROWN) 


Sebuah skala harga diri berbentuk Likert 4-pilihan (0 sampai 3) yang berjumlah 10 aitem 
hendak dianalisis reliabilitasnya. Peneliti hendak menguji reliabilitas alat ukur ini dengan 
menggunakan teknik belah dua (split half) dari Spearman-Brown. 





o 


a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 
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Mari kita menganalisisnya. 


Buka file kerja : “Split Half.Sav” 

Sebelum menganalisis, tentukan dulu dengan cara apa kita membagi alat tes mejadi 
dua bagian. Cara yang kita pilih kali ini adalah ganjil-senap 

Klik menu Analyze > Scale > Reliability Analysis 

Masukkan aitem yang bernomor ganjil (1,3,5,7,9,11) ke dalam kotak Items, kemudian 
disusul dengan memasukkan aitem bernomor genap (2,4,6,8,10,12). 

Pilih Model Split Half di kotak bagian bawah. Tekan OK! 











@iem 4 ® item_1 
® item 6 @iem3 


H item 8 ® item 5 
H item 10 2 item 7 
& item 12 D item 9 


Hitem 11 


Model: Alpha 5 
IT List item labels Statistics. 





2.B. OUTPUT DAN INTERPRETASI 


Reliability Statistics 


Cronbach's Alpha Part 1 Value 


N of Items 
Part 2 Value 

N of Items 
Total N of Items 


Correlation Between Forms 


Spearman-Brown Equal Length 
Coefficient Unequal Length 
Guttman Split-Half Coefficient 





a. The items are: item_1, item_3, item_5, item_7, item_9, item_11. 





b. The items are: item_2, item_4, item_6, item_8, item_10, item_12. 





Cronbach Alpha. Menunjukkan reliabilitas tiap bagian yang dihitung dengan 
menggunakan teknik Alpha Cronbach. Terlihat pada output bahwa reliabilitas belahan 1 
(ganjil) adalah r,,'- 0.623 dan reliabilitas belahan 2 (genap) adalah r,,” = 0.581. 
Correlation Between Forms. Adalah korelasi antar belahan yang dihitung dengan 
menggunakan korelasi product momen. Terlihat bahwa korelasi antar bagian tes 
rxą=0.957 dan nilai reliabilitas yang dihasilkan rxx=0.978 

Spearman Brown Coefficient. Menunjukkan reliabilitas alat ukur yang diestimasi dengan 
menggunakan teknik belah dua, yaitu r,e-0.978. Karena jumlah item antara belahan 1 
dan 2 adalah sama maka yang kita lihat adalah EQUAL LENGTH 
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e Guttman Split Half. Menunjukkan reliabilitas alat ukur yang diestimasi dengan 
menggunakan teknik belah dua dengan menggunakan formula dari Guttman yaitu 
rxe20.978 


5.B. PENULISAN LAPORAN PENELITIAN 


Dengan menggunakan teknik belah dua dari Spearman-Brown didapatkan reliabilitas alat 
ukur harga diri adalah re -0.640 


E. KESEPAKATAN ANTAR RATER (KAPPA) 

Reliabilitas antar rater ini dipakai menilai konsitensi dua orang rater dalam menilai 
performansi individu melalui checklist yang menghasilkan data nominal. Misalnya untuk 
mengetahui kesamaan psikolog menilai ada tidaknya simtom depresi pada klien (1-ada, 
O-tidak), mengetahui kesamaan antara observer terhadap emosi subjek. Data yang 
dihasilkan adalah data nominal, misalnya (1-senang, 2-sedih, 3-takut, 4-marah). Semakin 
banyak kemiripan hasil penilaian antara satu rater dan rater lainnya maka koefisien 
reliabilitas yang dihasilkan akan tinggi. 


1. CONTOH DESAIN STUDI 


Schmitz, et.al (2004) hendak menguji peranan informasi di media cetak dalam 
mempengaruhi persepsi penderita attention deficit/ hyperactivity disorder (ADHD). Untuk 
memilih paragraf di dalam artikel yang akan digunakan dalam penelitian, peneliti 
memberikan 32 artikel media massa kepada 2 orang rater. Tugas rater adalah memilih 
paragraf mana saja dalam artikel tersebut yang relevan dengan pembahasan ADHD. Dari 
penelitian tersebut didapatkan nilai konsistensi yang tinggi antar kedua rater yang 
ditunjukkan dengan nilai kappa(k)-0.92 


2. LATIHAN 


Dua orang rater yang berlatar belakang pendidikan berbeda, yaitu dari psikologi dan non- 
psikologi diminta untuk menilai tipe kepribadian yang dialami oleh 10 orang subjek. Cara 
kedua rater menilai skor adalah (1 - tipe A, 2 - Tipe B). Peneliti hendak mencari seberapa 
jauh kesamaan rater dalam menilai kecemasan yang muncul, apakah latar belakang 
pendidikan dapat membedakan penilaian terhadap tipe kepribadian. Kutipan data simulasi 
dilihat pada tabel. 


Tabel XX Data Laporan Observasi 2 Orang Rater 




















No | Rater 1 | Rater 2 
1 1 1 
2 1 2 
3 1 1 
4 1 2 
5 1 1 

















Tekan Menu Analyze > Descriptive Statistics > Crosstab 

Masukkan variabel “rater 1” pada rows dan “rater 2” pada coloumn(s) 

Masuk ke menu statistics, lalu pilih menu kappa > tekan Continue 

Masuk ke menu Cells, lalu pilih menu Total di bawah Percentages > tekan Continue 
Klik OK! 
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Crosstabs: Statistics [x] Crosstabs: Cell Display 


I Chi-square I Correlations - Counts - 
Nominal Ordinal Cancel IV Observed E Cancel 
I Contingency coefficient I Gamma rpected 

Help 





Hel 
I Phi and Cramér's V I Somers'd Hee | 


I Lambda JT Kendall's tau-b m Percentages Residuals 
I Uncertainty coefficient [T Kendal's tau-c F Row I Unstandardized 


I Eta 








Risk 
I McNemar 





r Noninteger Weights 





@ Round cell counts C Round case weights 
I Cochran's and Mantel-Haenszel statistics C Truncate cellcounts (© Truncate case weights 


Test common odds ratio equals 1 C No adjustments 














3. OUPUT DAN INTERPRETASI 


— Tabel pertama memperlihatkan konsistensi penilaian antar rater. Terlihat bahwa dari 
20 (90%) orang yang dinilai, terdapat 18 (604) orang yang dinilai konsisten. 6 (30X) 
orang sama-sama dinilai Tipe A dan 12 Orang dinilai sama-sama tipe B. Hanya 2 orang 
yang dinilai berbeda, rater pertama menilai Tipe A sedangkan rater kedua menilai Tipe 
B 

— Tabel Kedua menunjukkan reliabilitas antar rater yaitu kK-0.783. Asymp. Std Error 
menunjukkan kesalahan pengukuran terstandard, semaking kecil besarnya koefisien ini, 
semakin reliabel hasil pengukuran yang dihasilkan. 


Rater Pertama * Rater Kedua Crosstabulation 


Rater Kedua 
Tipe A Tipe B 


Rater Pertama TipeA Count 
% of Total 

TipeB Count 
% of Total 

Count 
% of Total 




















Symmetric Measures 


Asymp. 
Value Std. Erro | Approx. T? | Approx. Sig. 





Measure of Agreement Kappa ,783 142 3,586 
N of Valid Cases 20 


a. Not assuming the null hypothesis. 


b. Using the asymptotic standard error assuming the null hypothesis. 


4. RUMUS MENGHITUNG 


Untuk menghitung nilai kappa diperlukan tabel dengan 2x2 yang menunjukkan jumlah 
ataupun proporsi persetujuan antar rater. Tabel di bawah ini adalah rangkuman dari 
penilaian antar rater di atas. Terlihat bahwa ada 6 orang yang sama-sama dinilai sebagai 
tipe A dan ada 12 orang yang dinilai sama-sama tipe B. Sebaliknya ketidaksepakatan 
terjadi pada 2 orang, yang dinilai berbeda oleh kedua rater. 













































































Rater 2 Tah Rater 2 Juriah 
Tipe A | Tipe B TipeA | Tipe B 
TipeA |6 2 8 Tipe A A B 
Rater-1 fTipeB |0 E i Rater 1 fTieB | C D 
Jumlah 6 14 20 Jumlah 
Nilai kappa didapatkan melalui transformasi tabel ke persamaan di bawah ini. 
75 (A +D) _ (6+12) -0.900 
(A+B+C+D) (6+2+0+12) 

14 


SPSS Untuk Psikologi 
Wahyu Widhiarso | Fakultas Psikologi UGM | wahyu_psy @ugm.ac.id 


—(A4B) (A40) (C4D) B4D) (6427464 0)4 (0412) 4 (2-12) 


dan P, 7 5 
(A+B+C+D) (6+2+0+12) 


= 0.540 





C 


1-P, — 1-0.540 


P-E 0900-0540 793 


K= 





Fleiss (1981) mengkategorikan tingkat reliabilitas antar rater menjadi tiga kategori, antara 
lain : 


= Kappa « 0.4 : buruk (bad) 

= Kappa 0.4 -0.60 : cukup (fair) 

= Kappa 0.60 - 0.75 : memuaskan (good) 

= Kappa > 0.75 : istimewa (excellent) 


5. PENULISAN LAPORAN PENELMAN 


Dalam penulisan laporan ditulis keterangan bahwa koefisien reliabilitas dilaporkan dihitung 
dengan metode cohenn’s kappa dan berapa orang yang menjadi rater. Lebih lengkap lagi 
jika penulis menyertakan nilai standard error pengukuran. 

e Dalam penelitian ini Koefisien Cohen’s Kappa digunakan untuk menghitung reliabilitas 
antar 2 rater. Hasil yang didapatkan adalah k-0.783 dengan kesalahan standard sebesar 
0.142 

e The inter-rater reliability of the CCI by the 2 scorers, as evaluated by the kappa 
reliability test, was 0.93 with a standard error of 0.10 (Reliabilitas antar rater 
instrumen CCI oleh dua rater yang dihitung dengan menggunakan uji reliabilitas kappa 
adalah sebesar 0.93 dengan standar kesalahan sebesar 0.10) (Bernardini, 2004) 


Tekadang penulisan melampirkan persentase kesepakatan penilaian antar rater. 

e These two raters achieved 83% agreement. All points of disagreement were then 
discussed and consensus was reached about how to assign features (Brownell, 2005). 

e The interrater agreement on first-letter codes for all available choices (N - 216) was 
89.8% (Jepsen, 2003). 


F. RELIABILITAS ANTAR RATER (ICC) 

Berbeda dengan metode sebelumnya, metode estimasi reliabilitas antar rater ini dipakai 
jika ada beberapa orang rater menilai individu baik melalui instrumen rating yang 
menghasilkan data ordinal. Misalnya konsistensi juri menilai performansi peserta kontes 
karaoke, konsistensi supervisor menilai kualitas hasil kerja anak buahnya. 

Pada sub-bab ini reliabilitas antar rater dihitung dengan menggunakan koefisien korelasi 
antar kelas (Intraclass Correlation Coefficients, ICC). ICC menunjukkan perbandingan 
antara variasi yang diakibatkan atribut yang diukur dengan variasi pengukuran secara 
keseluruhan. 


1. CONTOH DESAIN STUDI 


Eisen et al (1998) hendak melakukan mengevaluasi Brown Assessment of Beliefs Scale yang 
mengukur tingkat delusi pasien. Untuk mengetahui reliabilitas alat ukur yang disusunnya, 
peneliti menggunakan empat orang rater untuk menilai 50 pasien yang memiliki gangguan 
yang berbeda. Teknik ICC dipakai untuk mengestimasi reliabilitas antar keempat rater. 


2. LATIHAN KASUS 


9 orang juri diminta menilai performansi 6 atlet terjun dengan menggunakan checklist yang 
terdiri dari 5 aitem antara yang menggunakan 5 alternatif penyekoran (1 hingga 5). Hasil 


15 
SPSS Untuk Psikologi 


Wahyu Widhiarso | Fakultas Psikologi UGM | wahyu psy@ugm.ac.id 


penilaian mereka dapat dilihat pada tabel di bawah ini. Reliabilitas dapat diestimasi 
dengan menggunakan teknik reliabilitas antar rater. 


Tabel XX. Hasil observasi oleh rater 





R1 R2 R3 R4 R5 R6 R7 R8 R9 





5.90 5.90 5.90 5.90 5.80 5.80 5.90 5.90 5.90 





5.80 5.70 5.80 5.70 5.70 5.70 5.80 5.80 5.80 





5.50 5.70 5.70 5.80 5.30 5.60 5.50 5.70 5.30 





5.60 5.80 5.60 5.70 5.40 5.60 5.30 5.60 5.70 





5.40 5.50 5.40 5.40 5.40 5.40 5.40 5.40 5.50 


œO Aly N — 








5.50 5.20 5.20 5.30 5.10 5.40 5.20 5.20 5.30 



































e Pilih Menu ANALYZE > SCALE> RELIABILITY ANALYSIS 

e Masukkan kesembilan rater (R1 sampai R9) ke dalam kotak ITEM kemudian pilih 
STATISTICS 

e Klik kotak F-TEST dan INTRACLASS CORRELATION COEFFICIENT 

e Pilihlah jenis analisis sesuai dengan default SPSS, yaitu TWO WAY MIXED dan 
CONSISTENCY dengan CONFIDENCE INTERVAL 95% 





Ieetobity anoivsir Statwtce NI E 
Doereriptives lor Interem T ] 
F em I Corelatone 

t I Sesde I Covanancer Leaca | 
I Scat d tem deleted Help 

| p Summaries ANOVA Table 
I Means C Nore 

| I Variances G Fiet 

| [I Covariances C Friedman chisquwa 
I Corelasona C Cochean chi-sgume 


| I Haelng': T-iause I Tukey's ten o sddiviy 
F intraclass comelaiion coeicinni 
Modet [TwoWay Mied =| Type Consistency - 
Conbdenceintervat |35 $% Test vae JO 














3. OUPUT DAN INTERPRETASI 


Reliability Statistics 


Cronbach's 
Alpha N of Items 


.974 


ANOVA 


Sum of 
Squares Mean Saure 





Between People 2.185 

Within People Between Items 173 TA 1.919 
Residuala .450 -011 
Total .622 -013 

Total 2.808 .053 


Grand Mean - 5.5796 
a. Tukey's test for nonadditivity is undefined for dichotomous data. 


Intraclass Correlation Coefficient 


Intraclass 95% Confidence Interval F Test with True Value 0 
Correlation? | Lower La Upper Bound Value dfi df2 








Single Measures -808° .964 38.883 5.0 40 a 
Average Measures 9746 .996 38.883 5.0 40 .000 
Two-way mixed effects model where people effects are random and measures effects are fixed. 


a. Type C intraclass correlation coefficients using a consistency definition-the between-measure variance is 
excluded from the denominator variance. 


b. The estimator is the same, whether the interaction effect is present or not. 
C. This estimate is computed assuming the interaction effect is absent, because it is not estimable otherwise. 


e Tabel pertama menunjukkan nilai reliabilitas jika diestimasi dengan menggunakan 
Koefisien Alpha. Tabel menunjukkan nilai koefisien alpha yang memuaskan (rxx=0.974) 
e Tabel kedua adalah tabel keluaran analisis melalui ANOVA 
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e Tabel ketiga menunjukkan keluaran ICC dengan reliabilitas antar rater yang cukup 


memuaskan (rxx=0.808) 


4. RUMUS MANUAL 


Nilai korelasi (ICC) didapatkan melalui rumus berikut, dengan menggunakan tabel ANOVA 
yang sudah di atas kita tidak kesulitan untuk mendapatkan nilai korelasi melalui rumus 


tersebut. 


residual 


MS sore — MS 
MS people F (df people x MSsiauat ) 


0.473—0.011 


= = 0.808 
0.473 + (8x0.11) 





Hubungan antara ICC dengan alpha dapat diketahui melalui rumus berikut. 


kxr 
a = — 
1+(k-1)xr 


— 9x0.808 
1+(9—1)x0.808 


= 0.974 


5. PENULISAN LAPORAN PENELITIAN 


— Dalam penelitian ini Koefisien Cohen’s Kappa digunakan untuk menghitung reliabilitas 
antar rater. Hasil yang didapatkan adalah k-0.783 yang menunjukkan konsitensi 


penilaian antar rater adalah cukup tinggi. 


— The ICCs for individual ratings of anxiety (CAS), depression (HDRS), and global 


impairment (GAS) were .93, .92, and .58 (Lenzenweger dan Loranger, 1989) 
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